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数据 中 心 全 系统 模拟 方法 研究 
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摘要 随 着 云 计算 的 发 展 ， 数 据 中 心 快 速 崛 起 并 给 设计 者 和 管理 者 带 来 了 很 多 新 的 挑战 。 模 拟 作 为 一 种 研究 
计算 机 系统 的 有 效 方法 已 被 用 于 数据 中 心 的 研究 ， 但 是 现 有 的 模拟 器 不 能 对 整个 数据 中 心 进行 模拟 。 从 头 
开发 一 个 完整 数据 中 心 模拟 器 复杂 性 大 、 开 发 周期 长 ， 并 且 其 可 信和 度 和 有 效 性 还 需要 经 过 长 时 间 的 考验 。 
因此 ,本文 探索 重用 现 有 模拟 器 进行 数据 中 心 全 系统 模拟 的 思路 ， 提 出 了 一 种 数据 中 心 全 系统 的 模拟 框架 ， 
它 可 以 通过 整合 现 有 的 模拟 器 来 构建 完整 的 数据 中 心 模拟 器 。 
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云 计 算 ， 也 就 是 基础 架构 即 服务 、 平 台 即 服务 和 软件 即 服务 ,正在 变革 和 重 塑 着 今天 的 
IT 产业 ， 并 影响 着 IT 基础 设施 的 设计 中 。 由 于 云 计算 具有 灵活 、 可 扩展 和 低 成 本 的 特点 ， 
很 多 传统 IT 服务 开始 向 其 上 迁移 。 这 促进 了 对 云 计算 的 物理 基础 设施 一 一 数据 中 心 的 需求 
极 大 增长 , 世界 各 地 出 现 了 很 多 能 容纳 数 万 甚至 数 十 万 服务 器 的 大 型 数据 中 心 。 但 是 大 型 数 
据 中 心 的 构建 、 运 作 和 管理 也 给 设计 者 和 管理 者 带 来 了 很 多 挑战 中 。 这 包括 : 可 扩展 架构 的 
设计 、 虚 拟 化 、 系 统 配 置 、 故 障 侦 测 和 诊断 、 功 耗 和 热能 管理 和 安全 问题 等 等 。 工 业界 和 学 
术 界 都 投入 了 大 量 的 精力 对 这 些 问 题 进行 研究 。 


N 对 于 数据 中 心 的 研究 ， 主 要 有 两 种 手段 : 测试 和 模拟 。 测 试 一 般 采 用 测试 床 进行 实验 。 
测试 床 是 微缩 的 数据 中 心 , 可 以 再 现 数据 中 心 的 很 多 真实 负载 和 场景 ， 以 反映 实际 的 需求 与 
S< 问题 。 但 是 由 于 其 规模 小 ， 很 难 对 大 规模 复杂 场景 进行 刻画 ， 尤 其 是 难以 进行 可 扩展 性 方面 
G 的 实验 。 而 且 ， 构 建 测试 床 需要 大 量 的 时 间 、 人 力 和 经 济 上 的 投入 ， 很 多 研究 者 不 具备 这 样 
.过 的 条 件 。 更 进一步 的 问题 是 ， 测 试 床 的 很 多 部 分 对 研究 者 来 说 是 黑 盒 ， 要 观察 其 运行 细节 或 
采集 性 能 数据 与 统计 信息 是 十 分 困难 的 。 模 拟 的 方法 ， 正 好 弥补 了 测试 床 方法 的 这 些 缺 点 。 
首先 ， 模拟 环境 往往 只 需要 一 台 或 数 台 主机 ， 在 儿 小 时 到 儿 天 的 时 间 内 就 可 以 搭建 完成 ; 其 
次 , 模拟 的 系统 规模 很 容易 扩展 到 数 干 甚至 上 万 节点 ; 再 次 , 被 模拟 的 系统 对 研究 者 来 说 是 
完全 可 见 的 , 很 容易 从 中 收集 性 能 数据 和 统计 信息 。 除 此 以 外 ,研究 者 很 容易 对 模拟 的 系统 
进行 修改 ， 加 入 新 的 设计 ， 以 验证 自己 新 的 想法 。 模 拟 方法 由 于 有 这 些 优点 ， 在 数据 中 心 的 
研究 中 被 广泛 使 用 。 


在 对 计算 机 系统 的 研究 过 程 中 , 己 经 开发 了 大 量 的 模拟 器 。 根据 这 些 模拟 器 模拟 的 功能 
可 以 将 他 们 分 为 局 部 模拟 器 和 系统 模拟 器 两 个 类 别 。 局 部 模拟 器 对 计算 机 系统 的 某 个 部 分 进 
行 细致 模拟 , 比如 处 理 器 模拟 器 M-SimP!, 缓存 模拟 器 Dinero IV, 存储 系统 模拟 器 Ruby”, 
磁盘 模拟 器 DiskSiml9， 网 络 模拟 器 NS371， 能 耗 模拟 器 Wattchg 等 。 系 统 模拟 器 对 整个 计 
算 机 系统 进行 模拟 ， 模 拟 的 部 件 有 处 理 器 、 缓 存 、 内 存 、 磁 盘 、 探 制 器 和 LO 总 线 等 。 常 见 
的 系统 模拟 器 有 Simics, SimpleScala!?, Simos"!, M5"? GEM5'?s, J M REUS 
拟 器 仅 对 单 节点 进行 模拟 。 此 外 ， 随 着 云 计 算 的 研究 变 热 ， 还 出 现 了 一 些 针对 云 服务 和 数据 
中 心 的 模拟 器 ， 比 如 MDCSim"^., CloudSim"?, GreenCloud" 9, NetworkCloudSim" "5 , 


尽管 大 量 模拟 器 已 经 被 开发 并 在 计算 机 系统 的 研究 中 广泛 使 用 , 但 是 大 多 数 模拟 器 仅 对 


N 
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系统 的 某 一 部 分 或 系统 的 某 一 方面 功能 进行 单独 模拟 。 即 使 是 系统 模拟 器 ,大 部 分 也 只 能 对 


应 用 ， 往 往 同 时 运行 
外 , 数据 中 心 的 管理 ， 比 如 


Bb H 


器 利用 率 的 信息 , 调度 结果 很 可 


单个 节点 或 少数 互 连 的 节点 进行 模拟 而 在 数据 中 心 


H5 xc 


宽 可 用 的 物理 


节点 ， 这 显然 会 对 系统 运行 的 效率 产 4 
环境 能 对 整个 数据 中 心 进行 模拟 , 将 极 大 地 促进 数据 中 心 的 相关 丰 


,大 量 的 高 通 量 应 用 ,比如 MapReduce 
在 大 量 节 点 上 ， 其 性 能 由 节点 、 网 络 以 及 它们 之 间 的 交互 共同 决定 。 此 
负载 均衡 、 容 灾 备 份 等 , 也 往往 
以 负载 平衡 时 将 虚拟 机 从 一 个 物理 节点 迁移 到 另 一 个 物理 节点 的 情形 为 例 ; 如 果 仅 考 虑 处 理 
将 虚拟 机 迁移 到 一 个 处 理 器 资 
E 不 利 影 


需要 考虑 数据 中 心 各 部 分 的 信息 。 


源 富裕 但 只 有 少量 网 络 带 
此 可 见 ， 如 果 有 一 个 模拟 
究 。 但 是 从 头 开发 一 个 针 


向。 


对 整个 数据 中 心 的 模拟 器 ， 复 杂 度 大 ， 
而 ， 如果 能 够 重用 那些 久 经 考验 的 模拟 器 ， 将 人 


避免 这 些 问 题 。 


IPS 


此 ,我们 提出 了 一 种 全 系统 的 模拟 


发 周 
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ER, 通过 该 框架 我 们 可 以 整合 现 有 的 诸如 网 络 模 
拟 器 、 存 储 模 拟 器 、 处 理 器 模拟 器 等 各 类 局 部 模拟 器 以 及 一 些 单 节 点 系统 模拟 器 来 构建 自己 


后 续 的 验证 和 调 优 代 价 也 很 高 。 然 


的 数据 中 心 模拟 器 。 我 们 的 基本 ) 


层 多 模拟 器 整合 机 制 , 将 他 们 粘 合成 一 个 
有 以 下 特点 : 


数据 ， 


心 全 系统 模拟 器 


思想 和 方法 是 在 


完整 的 音 


E 原 有 的 各 独立 运行 的 模拟 器 的 下 方 , 提 
的 数据 中 心 模拟 器 。 通 过 该 方法 构建 的 
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统 以 及 数据 中 心 网 络 的 模拟 ， 


及 网 络 协议 ; 


的 分 布 式 并 行 仿真 ， 并 上 


本 文 第 2 节 介 绍 模拟 器 的 相关 工作 ; 


A^ 
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全 系统 模拟 : 该 模拟 器 支持 对 CPU， 高 速 缓存 、 内 存 系统 、1/O 子 系统 、 存 储 子 系 
开 且 可 以 运行 不 加 修改 的 操作 系统 、 


户 应 用 程序 以 


分 布 式 模拟 : 为 了 加 快 仿真 速度 和 扩大 仿真 规模 ， 该 模拟 器 可 以 文 持 基 于 消息 通信 
保证 整个 系统 的 同步 ; 


事件 驱动 : 采用 事件 驱动 方式 可 以 加 速 仿真 。 
我 们 提出 的 数据 中 心 的 全 系统 模拟 


[HI 
过 
互 


ES 


的 设计 ， 第 4 节 给 出 了 一 个 实现 及 
相关 工作 
2.1 计算 机 系统 模拟 器 


2 


已 有 的 计算 机 系统 模拟 器 中 ， 以 下 三 款 有 


— GEMS5 


GEM5 是 一 款 模 块 化 的 离散 事件 驱动 的 计算 机 系统 仿真 平 
python。GEM5 具有 两 种 仿真 模式 : 全 系统 仿真 和 系统 调 月 
例如 中 央 处 理 器 、 内 存 以 及 
的 操作 系统 。 在 系统 调用 仿真 模式 下 ,GEM5 只 可 以 模拟 用 户 
多 种 指令 集 , 包括 Alpha, ARM, Power, SPARC 以 及 64 位 x86 指令 集 


单 指令 单 周 期 、 乱 序 以 及 按 序 流水 线 等 模式 。 为 了 更 好 地 模拟 


可 以 模拟 整个 系统 ， 包 括 所 有 设备 ， 


还 可 以 运行 在 多 个 模式 ,包括 


实验 ; 最 后 是 总 结 。 


内 存 系统 ，GEM5 将 Ruby 引入 其 


定 的 代表 性 。 


人 


台 ， 其 开发 语言 为 C++ 和 
日 仿真 在 全 系统 仿真 模式 下 ,GEM5 


o Ruby 可 以 模拟 完整 的 内 存 系统 ， 并且 可 以 维护 


网 卡 ， 还 可 以 运行 不 加 修 己 
空间 的 程序 。GEM5 可 以 支持 
。 男 外 ,模拟 的 CPU 


内 存 一 


致 性 。 例 如 ，Ruby 实现 了 像 snoopy 和 基于 目录 的 MESI 和 MOESI 等 一 致 性 协议 。 另 外 ， 


Ruby 还 包含 Garnet 模块 可 以 用 于 模拟 新 型 的 片上 网 络 互 连 。Garnet 可 以 实现 典型 的 


”一 种 网 络 模拟 器 


网 络 拓 
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Jh. 例如 网 状 网 Cmesh) 和 蝶 形 网 (butterfly)， 以 及 常见 的 路 | 
恨 强 大 ， 但 是 其 在 网 络 方面 的 支持 比较 薄弱 。 例 如 ， 虽 然 GEM5 
对 网 络 拓扑 以 及 路 


路 由 等 。 虽然 GEMS 的 功能 4 
可 以 模拟 网 卡 和 链 路 ， 但 是 大 


— Simics 


Simics" 是 一 款 全 系统 功能 模拟 器 ， 它 最 初 由 瑞典 计算 机 科学 研究 所 


生出 Virtutech 公司 进行 商业 化 开发 ， 现 在 Virtutech 被 英特尔 收购 。Simics 可 以 模拟 多 种 指 
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算法 , 例如 XY 和 Up-Down 


发 ， 后 来 该 所 派 


令 架 构 ， 包 括 Alpha、x86-64、IA-64、ARM、MIPS (32 位 和 64 位 )、MSP430、PowerPC (32 


位 和 64 位 )、POWER、SPARC-V8 and V9 和 x86 等 ; 可 以 模拟 众多 设备 ， 比 如 鼠标 、 键 盘 、 


Pu. d. RENE. VÀ 


R ARSE. Simics 本 身 还 提供 设备 模型 语言 


Language) 和 相应 的 编译 器 DMLC(Device Modeling Language Compiler), 


的 需求 开发 自己 的 虚拟 设备 。Simics 支持 在 模拟 的 硬件 上 无 修改 地 执行 二 进 制程 序 ， 往 


DML(Device Modeling 


j 户 可 以 根据 自己 


多 操 


作 系 统 可 以 在 Simics 模拟 的 人 硬件 上 无 修改 地 执行 , 包括 MS-DOS, Windows, VxWorks, OSE, 
Solaris, FreeBSD, Linux, QNX 和 RTEMS 等 。Simics 还 提供 了 强大 的 调试 功能 ， 它 不 仅 可 


以 和 gdb、valgrind 这 类 流行 的 工具 配合 ， 还 支持 检查 点 机 制 ， 


力 。Simics 的 主要 缺点 是 执行 速度 慢 ， 而 j 


一 FeS2 


日 它 是 商业 产品 ， 不 


FeS208 模 拟 器 是 在 Simics 模拟 器 的 基 而 


代码 , 同时 可 以 模拟 操作 系 


的 。 与 GEM5 相同 ，FeS2 同样 将 Ruby 引入 其 ! 
和 片上 网 络 系统 的 研究 ,与 GEM5 相 比 , FeS2 的 优势 在 于 利用 了 Simics 模拟 器 。 
正确 性 ， 所 以 FeS2 所 需要 关心 的 只 是 系统 的 时 序 仿 真 。 事 实 上 ， 


可 以 保证 模拟 在 功能 


上 的 正确 


上 上 开发 的 一 款 时 序 优先 的 X86 指令 集 多 处 理 
模拟 器 。 该 模拟 器 作为 Simics 的 一 个 模块 用 了 
器 核 的 时 序 进 行 模拟 。FeS2 的 特点 在 于 可 以 对 X86 指令 集 进行 精确 
指令 集 的 应 用 的 研究 具有 重要 意义 。 另 外 


统 指令 。 这 对 于 和 


FeS2 实现 了 Simics 处 
复杂 度 大 幅 降 低 。 然 而 ，| 


于 利用 了 商用 非 


二 次 开发 和 使 用 带 来 一 定 的 困难 。 


2.2 网 络 模拟 器 


网 络 模拟 器 是 一 类 主要 的 局 部 模拟 器 ， 本 详细 介绍 以 下 了 


— NS3 


ds 
IA 


Ns3" Æ 


源 的 离散 事 人 


NS2 的 扩展 ， 而 是 一 个 全 新 的 模拟 器 ， 它 试 


脚本 语言 


写 ，Python 仅 用 于 语言 绑 定 和 脚本 编 
网 络 模拟 ， 支 持 WiFi、WiMax、LITE“ 等 网 络 的 物理 
协议 如 OLSR 和 AODV. NS3 还 支持 实时 调度 ，NS3 网 络 可 以 与 真实 网 络 或 主机 互 连 ， 
调 真实 应 用 和 内 核 代码 的 重用 ， 不 加 修改 的 应 
还 支持 基于 MPT 的 并 行 模拟 。NS3 是 目 


交换 真实 网 络 流 量 。NS3 强 
FF 运行 。 此 外 ，NS3 


络 协 议 栈 可 以 在 NS3 


? 3GPP Long Term Evolution， 第 三 代 移 动 通信 长 
一 种 基于 消息 传递 的 并 行程 序 设 计 标准 


Message Passing Interface ， 


驱动 的 网 络 模拟 器 ， 主 要 用 于 


OTcl, NS3 使 用 C++ 和 脚本 语言 Python， 并 上 且 


期 演进 技术 
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六 对 缓存 层次 、 分 支 预测 以 及 超标 量 乱 序 处 理 
模拟 , 因此 对 于 针对 X86 
，FeS2 同样 支持 全 系统 模拟 ， 不 但 可 以 模拟 用 广 
究 多 线程 程序 的 性 能 以 及 调度 策略 是 非常 必要 


有 反 向 执行 应 用 程序 的 能 
生源 ， 价 格 昂贵 。 


D 


i 


。 因 此 ，FeS2 也 可 以 进行 灵活 的 内 存 系统 


因为 Simics 


里 器 和 内 存 系统 模块 的 时 序 模型 Ciming model)。 因 
源 系统 Simics， 因 此 会 对 用 户 在 该 模拟 器 上 的 


究 和 教育 领域 。NS3 不 是 
图 克服 NS2 扩展 性 差 的 特点 。NS2 使 用 C++ 和 
LNS3 的 核心 和 模拟 模块 全 
写 。NS3 同时 支持 IP 和 非 IP 网 络 ， 尤 其 
E 层 和 MAC 层 ， 以 及 各 种 静态 和 动态 路 


此 ，FeS2 的 开发 


种 最 新 的 网 络 模拟 器 。 


C++ 编 
适合 无 线 和 IP 


JMI Linux 内 核 网 


前 最 流行 


网 络 模拟 器 之 一 。 


— OPNET 


OPNETU? Œ 


员 开 发 新 的 网 络 协议 以 及 验 订 
ITDecisionGuru、Modeler 以 及 


OPNET 科技 有 限 公司 


Modeler 在 ITDecisionGuru 基础 之 上 又 提 储 
了 对 移动 通信 的 仿真 支持 。 本 质 上 来 说 OPNET 是 一 个 事件 刀 


Modeler/radio., rj 
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H ITDecisionGuru 只 


开发 的 商用 网 络 模拟 器 。 该 模拟 器 可 以 帮助 研究 人 
E 新 协议 对 系统 性 能 的 影响 OPNET 软件 包 主 要 包含 三 个 模块 : 
有 仿真 和 分 析 功 能 ， 


t 了 建 库 功 能 , 而 最 全 面 的 Modeler/radio 则 又 增加 
区 动 的 模拟 器 ， 可 以 提供 数 百 种 


有 线 和 无 线 协议 以 及 设备 模型 ， 例 如 X.25、AITM、EFDDI、OSPF 等 等 。 除 此 之 外 ，OPNET 


还 文 持 第 三 方 提供 的 库 横 块 以 及 
并 且 当 网 络 系统 规模 比较 大 时 ， 其 仿真 速率 会 大 幅 下 降 。 


2.3 数据 中 心 模 拟 器 


] 户 开发 的 协议 。OPNET 的 功能 很 强大 ， 但 是 其 


价格 ET DI , 


为 了 加 速 云 计算 和 数据 中 心 领 域 研究 的 进展 , 最 近 有 多 球 模 拟 嚣 发布, 例如 美国 宾 夕 法 


尼 亚 州立 大 学 的 MDCSim'"^!, 


澳大利亚 时 


E 


1 于 针对 云 计算 不 同 的 问题 


— MDCSim 


MDCSimn04 主 要 针对 多 层级 数据 上 
的 模拟 器 具有 很 多 的 局 限 性 , 例如 只 能 模拟 较 小 规模 的 系统 (扩展 性 差 ) 或 者 


长 


的 层级 。 较 差 的 扩展 性 


的 云 计算 应 用 大 多 具有 


多 个 层级 。 例 如 


MDCSim 之 前 的 模拟 大 多 不 
据 中 心 。 为 了 解决 这 两 个 问题 


心 层 和 通信 层 。 其 中 ， 


析 系 统 的 性 能 ， 例 如 


吞吐 量 、 


典型 的 三 层 应 
有 模拟 多 级 数据 中 心 的 能 力 ， 
，MDCSim 采用 了 简单 易 扩 展 
于 模拟 应 用 的 多 层 架 构 ; 核心 层 用 于 模拟 器 
延迟 、 利 用 率 、 功 耗 、 可 靠 性 以 及 热 分 析 等 等 ; 


于 模拟 集群 内 部 的 通信 。 虽 然 MDCSim 可 以 模拟 多 层 的 应 用 架构 ， 但 是 它 j 


墨尔本 大 学 


使 得 以 前 的 模拟 器 无 法 针对 大 规模 的 数据 9 


尔 本 大 学 和 新 南 威尔士 大 学 以 及 巴西 南里 奥 格 兰 
德 天 主教 大 学 联合 开发 的 CloudSiml5， 卢 森 堡 大 学 和 意大利 特 兰 托 大 学 以 及 美国 北 达 科 他 
州立 大 学 联合 开发 的 GreenCloud6， 以 及 澳 大 利 ] 


发 的 NetworkCloudSim""!, 
研究 ， 这 些 模拟 器 各 有 所 长 ， 下 面 对 他 们 逐一 展开 讨论 。 


Hò Cnulti-tier data center) 的 模拟 。 在 MDCSim 之 前 


只 能 模拟 单一 


FP 心 展开 研究 。 另外， 最 新 
模式 包含 后 端 ”、 前 端 和 客户 端 。 
因此 不 适用 于 新 型 的 云 计 算数 
的 三 层 机 构 ， 包 括 用 户 层 、 核 


HEJH. 


] 于 分 


通信 层 主要 用 


不 是 执行 驱动 


的 模拟 器 ， 例 如 它 并 不 模拟 真实 的 应 用 执行 也 不 模拟 诸如 中 央 处 理 器 、 内 存 、 


线 等 具体 的 功能 部 件 。 


— CloudSim 


CloudSim ^ £t ji. GridSiml9 模 拟 器 的 基础 上 开发 的 针对 云 计算 资源 分 配 策略 和 应 月 
调度 算法 研究 的 模拟 器 。CloudSim 实现 了 一 个 层次 化 的 软件 架构 ， 包 括 
CloudSim 和 用 户 代码 四 个 层次 。 最 底层 的 SimJava 是 一 个 离散 事 伯 
层 提供 诸如 事件 排队 和 处 理 服 务 、 系 统 组 件 (服务 、 主 机 和 虚拟 机 〉 的 创建 、 组 件 之 间 的 
信 、 以 及 管理 模拟 时 钟 等 模块 ,在 SimJava 之 上 的 GridSim 层 3 
能 统计 组 件 、 基 层 的 网 格 组 件 (包括 资源 、 


例如 网 络 、 相 关 的 网 络 性 


信息 服务 ) 等 。 在 GridSim 之 上 的 CloudSim Jz 3:3 
建 模 与 仿真 ， 例 如 虚拟 机 、 内 存 、 存 储 以 及 网 络 带宽 的 管理 
问题 都 在 这 个 层级 进行 模拟 ， 例 如 虚拟 机 到 物 到 


交换 机 以 及 连 


[uua 


E SimJava, GridSim. 


F 仿 真 引擎 


， 该 引擎 为 上 
通 


FE 要 


数据 集 、 


要 负责 虚拟 化 的 基于 云 的 数据 中 心 环境 的 


控 。 在 软件 架构 的 最 顶层 是 用 户 代 码 层 ， 主 要 负责 主机 、 应 


Ei O o 


] 于 创建 高 层 的 软件 组 件 


些 基础 的 云 计算 相关 的 
理应 用 的 执行 和 系统 的 动态 监 
j、 虚 拟 机 等 相关 配置 和 功能 ， 


负载 躁 迹 以 及 


以 及 中 介 程 序 Croker) 的 调度 策略 等 。 但 遗憾 的 是 CloudSim 也 不 是 执行 驱动 的 模拟 器 ， 
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并 不 模拟 真实 的 应 用 , 并 且 同 样 不 支持 对 类 似 中 央 处 理 器 内存 和 交换 机 等 功能 部 件 的 模拟 。 


根据 高 德 纳 (Gartner) 的 研究 报告 ， 数 据 中 心 的 电能 消耗 成 本 占 到 整个 数据 中 心 运行 成 
本 的 10% 以 上 中 ， 因 此 最 近 几 年 功 耗 一 直 是 云 计 算数 据 中 心 领 域 的 一 个 热门 的 研究 话题 。 


LH od 


个 数据 


当前 的 大 多 数 研 究 工 作 都 是 针对 计算 资源 消耗 的 功 耗 进行 研究 , 而 忽略 了 数据 ! 
耗 的 能 量 。 根 据 GreeenCloud25 的 作者 研究 发 现 ， 数 据 中 心 网 络 所 消耗 的 能 量 最 
心 消耗 能 量 的 30% 以 上 。 因 此 ， 研 究 低 功 耗 的 数据 中 心 网 络 具 有 重要 的 研究 意义 。 


心 网 络 所 消 
大 可 以 占 整 


然而 在 GreenCloud 之 前 并 没有 一 个 针对 数据 中 心 网 络 功 耗 研究 的 平台 ， 因 此 GreeenCloud 


在 NS2™ 模拟 器 的 基础 上 增加 了 对 服务 器 、 交 换 机 和 和 链 路 的 功 耗 模拟 。 然 而 遗憾 的 是 ， 


GreenCloud 仍然 不 是 执行 驱动 的 模拟 器 ， 同 样 没有 对 诸如 CPU 和 内 存 等 功能 部 


模拟 。 


— NetworkCloudSim 


最 近 开 发 CloudSim 的 研究 人 员 也 逐渐 意识 到 模拟 数据 中 心 网 络 功能 的 重要 性 ， 因 此 他 
们 在 CloudSim 的 基础 上 增加 了 网 络 功能 的 模拟 。NetworkCloudSim5 ”的 初衷 为 了 克服 在 其 


件 的 细 粒 度 


之 前 的 数据 中 心 模拟 器 存在 的 一 些 局 限 性 。 例 如 ，MDCSimn 和 CloudSim 缺乏 对 网 络 的 细节 
BiU. mU CloudSim 和 GreenCloud 则 只 支持 简化 的 应 用 模型 。 为 了 支持 对 网 络 行为 的 模拟 ， 
NetworkCloudSim 在 CloudSim 的 基础 上 增加 了 交换 (switch) Ik; [JW], 2g f scHeOM AE 


- 


3 ”我 们 设计 的 模拟 框架 


模拟 分 区 


[us] [55] [es] [e] 
[Erara [ains ies 


宿主 机 软 硬 件 资源 


图 1.。 数据 中 心 全 系统 模拟 框架 


为 了 实现 对 整个 数据 中 心 的 模拟 , 我 们 提出 了 一 套数 据 中 心 全 系统 模拟 框架 , 利用 该 框 


模拟 分 区 


H 
H 


应 用 模式 的 支持 ，NetworkCloudSim 又 增加 了 AppCloudlet 模块 。 然 而 NetworkCloudSim 4J} 
然 不 是 执行 驱动 模拟 器 ， 并 且 对 于 中 央 处 理 器 和 存储 等 功能 部 付 


的 模拟 仍然 没有 涉及 。 


模拟 分 区 


模拟 分 区 


架 可 以 整合 现 有 的 各 种 模拟 器 ， 快 速 地 开发 出 自己 的 数据 中 心 模拟 器 。 如 图 1 所 示 ， 该 框架 


是 一 个 分 布 式 结构 ， 每 全 宿主 机 上 的 模拟 框架 称 为 一 个 模拟 分 


区 ， 模 拟 数 据 中 心 的 一 部 分 ， 


比如 一 个 机 柜 (Rack)。 不 同 的 模拟 分 区 通过 物理 网 络 相 连 ， 构 建 一 个 完整 的 数据 中 心 模拟 
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器 。 每 个 模拟 分 区 自 下 而 上 分 为 四 层 ， 分 别 是 宿主 机 软 便 件 资源 、 模 拟 整 合 层 
用 层 。 应 用 层 包 括 执行 在 模拟 器 上 的 目 
为 了 方便 我 们 称 它们 为 模拟 
一 层 模拟 整合 层 提 供 的 应 
整个 


各 模拟 和 


3.1 


ig 


7b; 
Tr 


IN 
这 可 以 防 ] 


为 : 


Tt HR AR ACE 


3.2 


总 的 可 月 


器 核 数 小 于 模拟 单元 数目 时 , 调度 算法 让 模 扩 
拟 单元 独 享 处 理 器 核 。 同 时， 为 了 减 小 模拟 
密切 的 实例 分 配 在 同一 台 宿 主机 上 .用户 可 以 通过 配置 


数据 


中 心 全 系统 模拟 方法 研究 


标 系 统 和 应 


元 。 这 些 模拟 六 


]; 模拟 层 运行 各 利 


pd 


框架 的 核心 ， 


已 已 


fi 


元 提供 互 机 


部 署 模块 


元 与 外 部 的 接口 可 能 需 


要 少量 


部 署 模块 的 功能 是 生成 
要 的 问题 是 如 何 实现 模拟 单元 划分 ， 
2) 每 个 模拟 单元 的 规模 大 小 。 模 拟 和 


民运 行 模拟 器 的 物 到 


ENJ 


10 接收 并 解析 


调度 模块 


! 平 台 资源 有 关 。 当 模拟 单 
CE 时, 模拟 器 才能 获得 好 的 


标 系 统 , J 


4 


程序 接口 (APT )， 实 现 模拟 器 之 间 的 同步 与 通信 。 模 拟 
5 部署 、 同 步 、 通 信 、 调 度 和 执行 五 个 模块 。 该 层 向 上 为 模拟 
日 同步 和 通信 的 服务 ， 向 下 通过 物理 网 络 与 其 他 模拟 分 区 进行 同步 与 通 
言 。 下 面 介绍 模拟 整合 层 的 各 部 分 。 


这 里 需要 考虑 两 个 


元 的 数 


" 


生 能 。 而 模拟 单元 规模 大 小 


pas 
[mi 


E 
Z 


Hr 


AE 


、 模 拟 层 和 应 
局 部 或 系统 模拟 器 ， 
修改 以 便 调 用 下 


E H 
BRE 


PII 


H 


各 部 分 映射 为 各 模拟 单元 的 任务 。 部 署 过 程 中 
因素 : 10 划分 成 多 少 个 模拟 单 


调度 模块 执行 模拟 单元 的 调度 。 调度 的 


Ais 了 


hi 


日 处 到 


器 核 数目 大 于 
器 核 上 执行 ,以 避免 多 个 模拟 单元 莞 争 


^ 


密切 程度 。 


3.3 


A4— XR 


ES 


同步 模块 


同步 模块 实现 模拟 层 的 模拟 单元 间 以 及 模拟 分 区 之 间 的 同步 。 寿 
模拟 (Parallel Discrete Event Simulation, PDES) 22 同 步 方法 被 广泛 使 用 。 在 该 


散 事 人 


方法 ! 


每 个 被 执行 
乐观 同步 贝 
而 是 采 
行为 的 了 
sfr, B 


B Ab 


是 在 模拟 过 程 
于 模拟 单元 数目 时 , 调度 算法 将 每 个 模拟 
器 核 而 发 生 上 下 文 切换 的 了 


实现 物理 平台 


FU 


E 


> 
E 


元 实例 间 通 信 的 天 


了 处 到 


负 


O 人 


ih 


载 均衡 。 当 
元 分 配 在 一 个 处 理 


FE 元 的 数目 一 方面 跟 目 标 系 统 的 规模 有 关 ， 男 一 方 
目 跟 物理 资源 (总 的 可 
的 划分 原则 是 模拟 负载 要 尽量 均匀 ， 
模拟 单元 的 负载 太 重 而 成 为 整个 模拟 的 瓶颈 。 部 署 模块 基体 执行 的 部 署 步骤 
j 户 对 被 模拟 的 目标 系统 的 描述 信息 ， 生 成 目 
J4) AJ 2HTEJE UM 


HZZO 


标 系统 ;， 2) 利用 划分 算法 
到 模拟 单元 ;3) 为 互相 交互 的 模拟 单元 分 配 通 道 。 


H 


日 处 理 


小 的 模拟 单元 共享 处 理 嚣 核 , 模拟 量 大 的 模 
F 销 ， 调 度 算法 会 将 互相 通信 


， 每 个 模拟 的 逻辑 单元 称 为 一 个 逻辑 进程 (Logic Process，LP)， 如 
之 间 存 在 通信 则 认为 它们 之 间 存 在 一 条 连接 CL 
的 逻辑 进程 之 间 是 同步 的 , 则 整个 系统 也 是 同步 
保守 同步 和 乐观 同步 。 在 保守 同步 


的 。# 


的 事件 需要 而 


保 


x 
E 确 怕 
使 不 按照 时 | 


Tit: 


FE 递减 顺序 执行 ， 也 不 会 违反 


ink)。 其 实现 同步 的 基本 思 
行 离散 事 伯 


FH 


N 
术 


H 


HE 


两 个 逻辑 进程 
如 果 相 连 


， 每 个 逻辑 进程 按照 事件 时 间 截 非 递减 顺 


上 不 同 ， 它 不 保证 被 执行 的 事件 是 安全 的 ， 也 不 保证 
日 先 执行 ,然后 在 发 现 事件 的 执行 违反 
E. 与 保守 同步 相 比 ， 乐 观 同步 可 以 更 好 地 挖 抉 事 人 


zH 4H 


2U^ AE 5 


模拟 提供 了 两 种 


的 并 行 性 。 


被 禁止 了 ,但 乐观 同步 允许 这 种 行为 。 


E 
需要 


相应 的 机 舍 


SUE) 


| 


一 


和 重 


2 
新 执行 ， 因 


7j 


H 


此 有 可 有 


4 Application Program Interface, 


! 于 乐观 同步 需要 通过 


销 。 


因果 关系 。 A 


E 


回 滚 状态 来 纠正 因 


同步 机 竺 
序 执行 事件 ， 
是 “安全 的 ” 即 不 会 存在 比 该 事件 更 早 的 未 被 执行 的 事件 。 
F 的 执行 不 违反 因 
因果 关系 时 ， 回 滚 模 拟 状 态 重 新 执行 
因为 
保守 同步 ， 


文件 指定 目标 系统 各 部 分 之 间 的 交互 


E 众 多 同步 的 方法 中 ,并 


mi 


= 


而 


果 关 系 ， 
， 以 保证 
个 独立 的 
这 种 行为 


果 关系 违例 ， 


违例 的 发 生 , 并 且 需 要 定时 保存 模拟 状态 以 允许 违例 发 
# 带 来 额外 开 


E 时 进行 


ES 
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3 间 ， 并 且 俩 测 违例 、 保 


存 模拟 状态 以 及 状态 回 深 都 需要 模拟 单元 的 支持 , 为 了 减少 对 模拟 单元 的 修改 , 我 们 采用 保 
"CBE, HIE RES (Barier) 的 同步 算法 ， 该 算法 分 为 三 步 : 
的 集合 ; 20 按时 间 惟 非 递 减 顺序 执行 安全 事件 ，3) 执行 栅 障 同步 操作 。 每 个 逻辑 进程 通过 


反复 执行 以 上 三 个 步骤 实现 同步 。 
3.4 通信 模块 


通信 模块 实现 模拟 层 的 各 模拟 单元 | 


司 以 及 不 同 模拟 分 区 之 间 的 数据 交换 。 由 


1) 计算 所 有 安全 的 事件 


间 以 及 模拟 分 区 间 的 通信 都 可 以 看 作 是 进程 间 的 通信 ， 因 此 传统 的 实现 进程 间 通 


包括 管道 、 消 息 队列 、 共 享 内 存 、 信 和 号 中 


和 套 接 字 等 ， 都 可 以 采用 。 


展 性 、 通 信 效 率 ， 以 及 模拟 分 区 间 的 通信 需要 器 宿主 机 ， 我 们 提供 
称 有 名 管道 ， 即 “先入 先 出 ”和 套 接 字 。FIFO 主要 用 于 同一 宿主 机 .| 


通信 ， 而 套 接 字 主要 用 于 模拟 分 区 之 间 


但 考虑 到 便捷 


两 种 通信 方式 : 
的 两 个 模拟 单元 间 的 


于 模拟 单元 


HH E, 
E 性 、 可 扩 
FIFO CX. 


的 通信 。 但 是 我 们 测试 发 现 套 接 字 的 通信 效率 仅 比 


FIFO 低 10% 左 右 ， 因 此 在 存在 很 多 模拟 分 区 的 情况 下 ， 为 了 方便 ， 我 们 常 统一 并 
进行 通信 。 由 于 频繁 的 通信 会 降低 整个 模拟 器 的 执行 效率 ,为 了 减少 通信 次 数 ， 在 模拟 框架 


< 用 套 接 字 


中 模拟 单元 或 模拟 分 区 间 的 通信 实际 仅 发 生 在 每 次 到 达 同 步 时 , 即 完成 栅 障 操作 后 但 开始 下 


一 回合 的 同步 之 前 。 在 上 面 提 到 的 同步 算法 中 , 模拟 单元 在 执行 


安全 事件 阶段 产生 的 需要 交 


换 的 数据 会 临时 放 在 队列 中 暂 存 , 在 到 达 同 步 点 后 才 进 行 实际 的 数据 交换 。 为 了 保证 数据 交 


换 的 及 时 性 ， 两 次 同步 的 间隔 应 该 小 于 等 于 数据 交换 的 延迟 。 


4 评测 


为 了 验证 上 述 模拟 框架 的 有 效 性 ， 我 们 基于 该 框架 开发 了 一 个 数据 中 心 全 系统 模拟 器 。 


在 该 模拟 器 中 ， 一 个 单 节 点 系统 模拟 器 被 用 来 模拟 计算 节点 的 行为 ， 
模拟 互连网 络 。 计 算 节 点 和 互连网 络 通过 模拟 框架 连接 在 一 起 , 构建 出 用 户 指定 规模 的 数据 
中 心 。 我 们 通过 该 模拟 器 模拟 一 个 多 节点 计算 机 系统 ， 并 与 一 个 相同 规模 的 物 3 
比 , 来 验证 该 模拟 器 的 有 效 性 。 受 限于 我 们 现 有 的 物理 资源 ,我 们 仅 模 拟 了 一 个 
节点 连接 了 四 个 计算 三 点 的 小 规模 计算 机 系统 , 并 与 一 个 由 单个 交换 机 相连 了 四 个 
的 物理 系统 进行 对 比 。 由 于 我 们 使 用 的 单 节点 系统 模拟 器 尚 不 能 模拟 与 现 有 物理 节点 配置 相 
同 的 计算 节点 ， 我 们 目前 仅 通过 执行 Iperf 和 IMB 这 两 个 基准 


这 两 个 系统 的 通信 行为 进行 对 比 。 
4.1 Iperf 评测 


一 个 网 络 模拟 器 被 用 来 


理 系 统 进行 对 


一 个 交换 


Iperft2 是 一 个 网 络 性 能 评测 工具 , 它 采 用 客户 端 “~ 


/服务 端 模式 对 点 对 点 网 络 性 能 进行 测试 。 在 目标 系 “县 320 
= 160 | 一 一 模拟 系统 


统 中 ， 我 们 随机 选择 两 个 计算 节点 作为 


端 和 服务 端 ， 通 过 客户 端 向 服务 端 发 送 指定 速率 的 
UDP 数据 流 ， 并 观察 实际 吞吐 率 。 实 验 结果 如 图 2 


所 示 ,， 横 坐标 是 设 定 的 数据 流 注入 速率 ， 


际 吞 吐 率 。 结 果 显示 ,模拟 系统 和 物理 系统 的 实际 看 


吐 率 曲 线 几 乎 完全 一 致 。 


? User Datagram Protocol, 用 户 数据 报 协议 


Iperf 的 客户 


--¢-- 


物理 系统 


吞吐 率 ( 


示 


pur 


纵 坐 标 是 实 


图 2. Iperf 测试 中 实际 大 中 
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计算 节点 


测试 程序 Benchmarks) 来 对 


10 20 40 80 160 320 640 


设 定 速率 (Mbps) 


EZ EE 


数据 中 心 全 系统 模拟 方法 研究 


4.2 IMB 评测 


IMBP! (Intel® MPI Benchmarks, 英 


特 尔 MPI 性 能 指示 评测 ) 是 一 套 对 各 种 E -o 物理 系统 
` = hi MA e ee 3E ET SE STI E > 个 N 
A 通信 操作 性 能 进行 评测 的 工具 ， 我 们 H —a— 模拟 系统 
选择 了 其 中 的 Pingpong 、Bcast 和 Hi 
All-To-Al 三 个 测试 用 例 对 目标 系统 进行 了 
测试 ， 它 们 分 别 对 应 一 对 一 、 一 对 多 和 多 uu P 
C C e& sro c r- oO iO 
Euer CIL und uA ria 
对 于 点 对 点 通信 ， 我 们 在 目标 系统 中 NAD 
随机 选择 任意 一 对 节点 ， 测 试 不 同 消息 长 HEKE F) e 
度 的 情况 下 执行 Pingpong 操作 的 性 能 。 图 don 
di z 1 2 n Ee ior > 图 3. Pingpong 测试 中 吞吐 率 随 
3 显示 了 Pingpong 测试 中 吞吐 率 随 消息 长 


3 ELE BE tz E, E 较 
度 变化 的 趋势 ， 其 中 符 叶 率 对 链 路 带宽 进 Rd a 
行 了 归 一 化 。 结果 显示 模拟 系统 与 物理 系统 的 大 叶 率 变化 曲线 仅 在 局 部 咯 有 差异 , 总体 表现 
出 了 相同 的 变化 趋势 


为 测试 一 对 多 的 通信 性 能 ， 我 们 在 目 1.00 
标 系统 中 依次 让 各 节点 作为 根 节点 ， 向 其 0.80| -*- 物理 系统 
他 所 有 节点 发 送 指定 长 度 的 消息 进行 0.60| 一 一 模拟 系统 
Bcast 测试 。 用 完成 一 次 Bcast 操作 的 时 间 
作为 Beast 的 性 能 指标 。 为 了 便于 比较 ， 


归 一 化 时 间 
o 
è 


将 结果 对 最 长 Bcast 操作 时 间 进 行 了 归 一 0.00 -9-9--9--0--0--9-- 9-0 7 — 

化 。 图 5 显示 了 在 物理 系统 和 模拟 系统 ， eU rd i.m» SS 

执行 Bcast 时 ，Bcast 完成 时 间 随 消息 长 度 NOIA 

变化 的 曲线 , 两 者 表现 出 同样 的 变化 趋势 。 HAKE CFH) È 
在 测试 多 对 多 的 通信 性 能 时 ， 在 目标 图 4. Bcast 操作 时 间 随 消息 

系统 中 ， 每 个 节点 向 其 他 所 有 节点 发 送 指 长 度 的 变化 趋势 比较 


定 长 度 的 消息 。 所 有 节点 间 完 成 一 轮 通信 
的 时 间 被 作为 All-To-All 操作 的 性 能 。 同 
样 ， 我 们 将 结果 对 最 长 AlLTo-All 操作 时 .80| e 物理 系统 
间 进 行 归 一 化 。 图 5 同样 表明 模拟 系统 的 -模拟 系统 
行为 与 物理 系统 高 度 一 致 。 


上 述 的 实验 可 知 ， 基 于 我 们 提出 的 
数据 中 心 模拟 框架 开发 的 数据 中 心 模拟 器 。 000 S7 A 
模拟 物理 系统 ， 其 结果 与 物理 系统 行为 高 

度 一 致 。 因 此 基于 该 框架 开发 数据 中 心 模 s 
拟 器 是 切实 可 行 的 。 


归 一 化 时 间 


32788 
131072 |& 
524288 

2097152 


图 5. All-To-All 操作 时 间 随 
消息 长 度 的 变化 趋势 比较 


EE 用 现 有 模拟 器 构建 数据 中 心 模拟 器 的 基础 上 构建 了 一 套数 据 中 心 全 系统 模拟 


> 
xc 
ü 


"d 


框架 


我 们 
为 与 


不 
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， 该 框架 可 以 整合 现 有 局 部 模拟 器 或 单 节点 系统 模拟 器 ， 构 建 完整 的 数据 中 心 模拟 器 。 
基于 该 框架 开发 了 一 个 数据 中 心 模拟 器 , 相关 实验 显示 该 模拟 器 所 模拟 的 计算 机 系统 行 
目标 物理 计算 机 系统 高 度 一 致 。 
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